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摘要 : 【 目的 ] 论述 Web 信息 抽取 技术 在 新 闻 与 情 分 析 中 的 应 用 ， 为 与 情 虚 假 信息 甄别 、 与 论 引 导 提供 新 方法 ， 从 
而 避免 对 大 众 的 思维 、 想 法 等 造成 不 良 影响 。【 方法 】 研 究 提 出 了 基于 行 块 分 布 函数 和 基于 统计 与 网 页 结构 两 种 不 
同 的 新 闻 正 文 信息 抽取 方法 , 使 得 在 对 Web 新 闻 数 据 采 集 和 存储 的 基础 上 ， 正 文 信息 抽取 更 加 高 效 和 准确 。【[ 结果 】 
两 种 Web 信息 抽取 技术 可 以 广泛 应 用 于 海量 新 闻 数 据 分 析 、 和 与 情 监 测 等 应 用 场景 。【 结论 】 通过 基于 行 块 分 布 函 数 
的 抽取 方法 和 基于 统计 信息 与 网 页 结构 的 抽取 方法 ， 能 够 分 别 对 轻 量 网 页 和 大 流量 网 页 抽取 信息 时 表现 更 优 。 
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导语 

网 络 与 情 是 社会 民意 在 互联 网 上 的 集中 反映 ， 其 
中 Wepb 新 闻 数 据 是 当前 数据 采集 的 重要 主体 之 一 。 针 
对 网 络 上 负面 消极 的 舆论 信息 可 能 引发 的 舆情 危机 ， 
媒体 机 构 有 责任 建立 一 个 舆情 数据 采集 和 分 析 机 制 。 
互联 网 数据 所 呈现 的 海量 、 多 样 、 动 态 变化 等 特点 ， 
使 得 整个 数据 采集 、 管 理 与 分 析 有 着 较 大 的 困难 ， 这 
也 是 当前 政府 和 媒体 阴 待 解决 的 重要 问题 之 一 。m 深 
圳 报 业 集团 创新 研究 的 吹 哨 系 统 能 够 快速 跟踪 与 情 变 
化 趋势 ， 从 而 全 面 了 解 与 情 发 展 的 来 龙 去 脉 。 在 吹 哨 
系统 中 ， 主 要 运用 了 基于 统计 与 网 页 结构 的 Web 新 闻 
正文 抽取 算法 。 因 此 ， 本 研究 针对 多 数据 源 网 络 与 情 
数据 采集 方法 进行 研究 ， 对 不 同 的 Web 新 闻 信 息 内 容 
主题 ， 设 计 了 两 类 不 同 的 新 闻 内 容 抽取 算法 ， 一 类 是 


数据 量 大 ， 所 需要 的 抽取 技术 较为 复杂 。™ 

为 了 解决 以 上 信息 抽取 问题 ， 当 前 国内 外 主要 采 
取 以 下 几 种 方式 。™ 
1.1.1 基于 规则 模板 

在 网 站 布局 时 ， 虽 然 各 网 站 的 设计 风格 不 同 ， 但 
对 同一 个 Web 站 点 而 言 ， 往 往 会 使 用 模板 填充 技术 ， 
使 其 网 页 具有 相似 结构 。 在 抽取 信息 时 ， 如 果 能 够 获 
取 到 该 模板 ， 就 能 快速 、 准 确 地 取得 相关 数据 源 。 但 
这 种 方式 在 后 期 维护 时 ， 要 将 不 同 的 包装 需 定 期 加 入 
模板 库 中 ， 因 此 维护 成 本 较 高 、 可 扩展 性 较 差 。 
1.1.2 基于 视觉 特征 

人 们 在 日 常 浏览 网 页 时 ， 往 往 会 根据 一 定 的 视觉 
特征 来 进行 浏览 。 这 就 对 网 页 内 容 和 网 页 标签 的 布局 


等 有 了 更 高 的 要 求 。 其 中 网 页 标签 的 作用 较为 重要 ， 


基于 行 块 分 布 函 数 的 新 闻 正 文 抽 取 算法 ， 男 一 类 是 基 
于 统计 与 网 页 结构 的 新 闻 正 文 抽取 算法 。 对 两 种 方法 
进行 对 比 ， 最 终 证 明 后 者 具有 一 定 的 优势 ， 同 时 也 反 
映 出 吹 哨 系统 具有 良好 的 可 行 性 和 一 定 的 先进 性 。 
1. 相关 研究 
1.1 Web 信息 抽取 技术 分 类 

互联 网 数据 绝 大 部 分 是 以 HTML 文档 的 形式 呈现 ， 
其 文本 信息 、 图 片 内 容 的 位 置 都 是 无 结构 的 ， 且 这 些 数 
据 都 具有 海量 、 异 构 数 据 源 等 特点 。 信 息 抽 取 是 指针 对 
非 结 构 化 的 自然 语言 文本 ,利用 相关 技术 从 中 筛选 和 提 
取 有 用 的 数据 信息 等 ， 进 而 对 其 进行 结构 化 转换 ， 转 换 
后 可 方便 后 续 环 节 对 其 进行 分 析 。 但 互联 网 信息 数据 有 
着 极 强 的 动态 可 变性 和 复杂 性 ， 内 容 更 新 频率 非常 高 、 


第 一 是 用 于 组 织 网 页 的 内 容 ， 第 二 是 能 够 提供 显示 功 
能 。 因 此 在 采集 信息 时 ， 就 可 以 根据 这 些 具 备 一 定 视 
觉 特征 的 分 割 页 面 进行 抓 取 ， 从 而 提高 采集 效率 。 但 
随 着 互联 网 技术 的 发 展 ， 网 页 页 面 更 加 多 样 和 丰富 ， 
导致 提取 这 些 视 觉 特征 更 为 困难 。 
1.1.3 基于 统计 信息 

在 实际 网 页 中 ,文本 内 容 和 网 页 标签 等 统计 信息 
量 不 是 均匀 分 布 的 ， 因 此 可 以 根据 这 些 统计 量 的 分 布 
特征 来 制定 不 同 的 策略 ， 进 而 实现 Web 信息 抽取 的 目 
的 ， 例 如 可 将 字符 数 作为 正文 区 域 的 衡量 指标 等 。 这 
种 方法 有 着 较 好 的 普 适 性 ， 其 最 大 的 优势 为 不 受 数据 
源 限 制 ， 而 且 在 对 数据 抓 取 和 学 习 时 采用 无 监督 学 习 
方法 ， 具 有 较 好 的 效果 。 
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1.1.4 基于 DOM 树 结构 的 Web 信息 
在 对 某 一 网 页 信息 进行 抽取 时 ， 通 过 网 页 解析 还 
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库 中 获取 网 页 链接 ， 然 后 进行 下 载 和 解析 ， 再 将 网 页 
中 的 新 闻 内 容 存 储 在 数据 库 。Spider 工作 流程 如 图 1 


可 以 将 Web 文档 转化 为 DOM 树 ， 从 而 能 够 更 加 直接 
地 看 到 HTML 标签 的 层次 结构 。 该 种 抽取 方法 目前 也 
已 较为 成 熟 ， 主 要 抽取 抓 取 后 表格 中 大 量 带 有 节点 特 
征 的 数据 。 这 种 方式 综合 考虑 了 网 页 整体 结构 和 数据 
统计 情况 ,因此 在 对 新 闻 正 文 抽取 时 有 着 较 好 的 表现 。 
1.2 Web 信息 抽取 结果 衡量 标准 
在 新 闻 信 息 抽取 后 ， 往 往 通 过 准确 率 P 和 召回 率 
R 来 对 评价 结果 进行 衡量 ， 公 式 如 下 : 
和 负 顷 大 确 码 殉 纤 和 妆 
”大 统 所 序 妨 驶 团 奥 妆 
1 
系统 Y 谤 盘 肥 J 上 殉 徊 锋 妆 
从 上 述 准确 率 P 和 召回 率 R 的 公式 中 能 够 看 出 ， 
两 者 取 值 范围 为 0-1， 其 数值 越 大 则 说 明 在 信息 抽取 
时 更 加 准确 。 但 需要 注意 的 是 ， 往 往 准确 率 P 和 召回 
率 R 两 个 指标 不 能 同时 增加 或 同时 下 降 ， 一 个 指标 的 
提升 一 般 会 使 得 另 一 个 指标 下 降 。 巴 
2.Web 新 闻 数 据 采集 与 存储 
在 对 Web 新 闻 信 息 抽取 前 ， 需 要 对 Web 新 闻 数 
据 进行 采集 ， 此 时 要 考虑 采集 效率 问题 ， 保 证 可 以 快 
速 采集 到 每 天 更 新 的 海量 Web 新 闻 数 据 。 
2.1 Web 新 闻 数 据 采集 
分 布 式 爬 虫 技术 是 当前 较为 成 熟 的 一 种 数据 采集 
方法 ， 其 分 为 对 等 分 布 式 和 主 从 分 布 式 叹 虫 。 第 一 种 
对 等 分 布 式 爬 虫 在 其 运行 时 所 有 节点 分 工 一 致 ， 参 与 
疏 虫 任务 的 服务 器 都 可 以 从 待 抓 取 URL 队列 中 进行 抓 
取 , 然后 进行 哈 希 处 理 , 再 对 应 到 不 同 的 候 忠 节点 上 。 
但 这 种 方法 其 拓展 性 一 般 ， 尤 其 在 某 个 服务 器 出 现 问 
题 重 新 分 发 任务 时 ， 会 使 得 所 有 节点 重新 工作 ， 造 成 
了 资源 的 浪费 。 第 二 种 主 从 分 布 式 仆 虫 则 主要 利用 了 
一 台 服 务 器 专门 存储 和 处 理 Master 节点 ， 并 将 URL 分 
发 到 Slave 节点 上 ， 然 后 再 进行 后 续 数据 采集 工作 。 
Master 节点 不 仅 要 完成 分 发 任务 ， 还 需 考 虑 分 发 后 的 
Slave 节点 的 负载 均衡 情况 ， 这 就 对 Master 服务 器 性 能 
提出 了 较 高 的 要 求 ， 而 这 往往 也 是 这 种 模式 的 瓶颈 所 
在 。 [5] 
本 研究 结合 实际 工作 ， 采 用 主 从 分 布 式 聆 虫 方式 
来 采集 数据 ， 使 用 Redis 数据 库 构 建 URL 队列 。 将 
Master 节点 设 定 为 控制 节点 ， 并 利用 Redis 数据 库 管 
理 URL 疏 虫 队列 ， 抓 取 后 要 存储 URL 链接 以 及 对 其 
进行 去 重 处 理 。Slave 节点 则 从 Master 节点 的 URL 仓 


x 100% 


x 100% 


所 示 。 此 外 ，Web 新 闻 网 站 每 天 都 会 更 新 大 量 新 闻 ， 
为 了 能 够 保证 采集 到 最 新 的 新 闻 内 容 ， 在 实际 工作 中 
还 会 定期 注入 人 工种 子 URL， 主 要 包括 需要 采集 的 网 
站 首页 链接 。 


铅 来 该 spider] [名 [ 纳 ， 接 始 化 多 
工作 光 


图 1 Spider 工作 流程 图 


2.2 Web 新 闻 数 据 存 储 
新 闻 数 据 涉及 的 话题 范围 较为 广泛 日数 据 量 较 大 ， 
本 研究 建立 数据 存储 中 心 ， 采 用 分 布 式 数据 库 对 其 进 
行 流 式 存储 ， 构 建 数据 存储 中 心 主要 包括 以 下 内 容 。 
2.2.1 构建 数据 存储 平台 

对 于 新 闻 数 据 的 存储 ， 主 要 是 需要 满足 当前 互联 
网 技术 爆发 式 的 信息 增长 ,考虑 到 信息 内 容 的 多 样 性 ， 
而 传统 的 关系 型 数据 库 难 以 满足 当下 海量 数据 存储 管 
理 的 实际 需求 。 风 因此 ， 本 研究 采用 Hadoop 分 布 式 部 
署 方式 以 及 HBase 分 布 式 数据 库 来 完成 数据 存储 任务 ， 
并 且 利 用 虚拟 化 技术 提升 存储 效率 ， 在 虚拟 机 中 部 署 
相关 服务 。 通 过 这 种 方式 ， 第 一 提升 了 非 结 构 化 数据 
存储 能 力 ， 对 于 结构 化 数据 将 其 转 为 二 维 关系 表 进行 
存储 ， 提 升 其 容错 能 力 和 查询 效率 。 第 二 提升 数据 库 
并 发 效率 ， 避 免 关 系 型 数据 库 仅 依靠 事务 机 制 来 保证 
数据 一 致 性 这 一 限制 ， 提 升 并 发 访问 能 力 。 
2.2.2 存储 数据 

使 用 API 实现 该 部 分 功能 ， 并 且 采 集 程 序 与 数据 
存储 相 融 合 ， 文 持 海量 数据 高 效 装载 到 数据 库 中 。 为 
了 保证 分 布 式 集群 的 负载 均衡 ， 将 Web 新 闻 网 站 的 
URL 以 “域名 : 协议 : 资源 路 径 ” 的 格式 进行 存储 ， 
然后 完成 数据 抽取 和 结构 化 表示 。 数 据 库 采 用 面向 列 
的 形式 进行 设计 ， 表 结构 模式 则 可 以 依据 列 来 进行 确 
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认 ， 可 以 根据 实际 需要 添加 字段 信息 或 标签 。 在 数据 
存储 时 ， 分 布 式 数 据 库 HBase 底层 存储 使 用 Hadoop 
分 布 式 部 署 方式 ， 利 用 ZooKeeper 实现 多 个 任务 的 协 
同 管理 ， 并 且 能 够 利用 分 布 批量 计算 能 力 来 处 理 每 天 
新 闻 产生 的 海量 数据 。 采 用 主 从 分 布 式 架构 设计 ， 其 
中 HDFS 作为 底层 存储 实现 , HMaster 则 实现 负载 均衡 。 
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3.Web 新 闻 正 文 抽取 方法 研究 

在 对 新 闻 网 页 进行 抽取 时 ， 网 页 页 面 还 包含 了 很 
多 非 正 文 噪声 信息 ， 例 如 导航 栏 、 推 荐 广告 等 ， 那 么 
在 对 正文 内 容 抽 取 时 ， 必 须 将 这 些 信息 进行 过 滤 。 而 
这 些 噪声 信息 往往 包含 在 相同 的 网 页 结构 中 。Web 新 
闻 网 页 中 一 般 来 说 可 将 噪声 信息 分 为 两 类 ， 即 可 见 噪 


HBase 数据 库 是 由 Table 和 Region 相互 对 应 的 ， 可 以 
将 其 看 作 一 张 表 ， 当 数据 量 增加 到 一 定 程度 时 ，Table 
中 的 部 分 数据 就 会 被 分 配 到 一 个 Region 中 。 在 实际 存 
储 过 程 中 ，HBase 的 数据 表 就 是 以 列 的 形式 进行 独立 
存储 ， 并 且 会 形成 一 个 单独 的 文件 ， 其 中 如 果 某 一 项 
值 为 空 ， 那 么 该 空 值 就 会 被 舍弃 ， 不 会 将 其 保存 在 数 
据 库 中 。HBase 数据 库 适 用 于 存储 海量 数据 ， 这 是 因 
为 其 能 够 从 横 纵 两 个 方向 维度 上 支持 数量 级 的 弹性 变 
化 ， 一 张 单 表 就 可 以 存储 上 亿 条 数据 记录 。 另 外 ,在 
数据 检索 时 也 支持 列 独立 检索 , 当 数据 有 一 定 关联 时 ， 
可 以 将 这 些 数据 存储 在 同一 列 族 下 ， 这 样 就 能 够 有 效 
降低 读 写 时 IO 所 消耗 的 资源 , 提升 读 写 效率 。 因此 ， 
也 就 说 明了 这 种 列 式 存储 方式 能 够 更 为 方便 地 进行 数 
据 检 索 及 更 高 效 地 压缩 数据 ， 从 而 更 为 适用 非 结构 化 
数据 的 存储 任务 。 
2.2.3 数据 检索 

在 数据 存储 后 ， 有 时 还 需要 对 存储 的 数据 进行 检 
索 查 询 ， 便 于 后 续 正 文 抽 取 与 分 析 。 在 实际 工作 中 发 
现 ， 当 数据 量 很 大 时 ， 检 索 效率 会 受到 影响 ， 因 此 针 
对 海量 数据 检索 ， 本 研究 采用 基于 二 级 索引 的 方式 来 
解决 。 二 级 索引 主要 是 通过 倒 排 的 形式 进行 索引 ， 对 
文本 抽取 的 这 一 类 新 闻 而 言 ， 主 要 是 文本 字符 串 数据 
言 息 ， 因 此 查询 时 主要 依靠 关键 字 信息 ， 其 原理 如 图 
2 所 示 , 例如 对 两 列 数据 C1、C2, C1 列 用 于 描述 C2 列 ， 
C2 列 为 实际 存储 的 图 像 数据 ， 此 时 就 可 以 在 C1 列 建 
立 二 级 索引 ， 使 用 时 可 以 直接 查询 C1 列 ， 然 后 提取 
到 C2 列 数 据 信息 的 值 。™ 


RowKkey F:C1 F:C2 


查找 符合 F:CL=C11 的 F:C2 数 据 


RowKey F:C1 Lr 


索引 数据 


图 2 二 级 检索 原理 图 


声 和 不 可 见 噪声 。 可 见 噪声 主要 包括 导航 栏 、 广 告 区 
等 读者 能 够 直接 浏览 的 区 域 。 不 可 见 噪声 主要 指 当 打 
开 网 页 源码 时 ， 会 有 <script><style> 等 标签 信息 ， 这 
些 信息 不 会 直接 呈现 给 读者 ， 但 是 当 对 文 草 进 行 抽取 
时 就 可 能 产生 影响 。 

在 创新 研发 的 吹 哨 系统 中 ， 奥 情 分 析 的 数据 源 主 
要 来 自 Web 网 页 中 的 新 闻 内 容 ， 主 要 包括 新 闻 标 题 、 
发 表 时 间 、 新 闻 正 文 内 容 三 大 要 素 。 因 此 ， 以 下 分 别 
介绍 基于 行 块 分 布 水 数 的 Web 新 闻 正 文 抽取 算法 和 基 
于 统计 与 网 页 结构 的 Web 新 闻 正 文 抽 取 算 法 ， 本 吹 哨 
系统 则 最 终 选 择 后 者 ， 达 到 更 佳 效 果 。 

3.1 基于 行 块 分 布 函数 的 Web 新 闻 正 文 抽 取 方 法 

基于 行 块 分 布 函数 的 Web 新 闻 正 文 抽取 算法 就 是 
采用 类 似 机 顺 学 习 的 思想 ， 忽 略 了 网 页 源码 中 相互 交 
织 的 复杂 和 不 规范 问题 ， 其 核心 要 点 主要 是 考虑 网 页 
正文 区 的 文本 密度 和 行 块 文本 长 度 。 其 中 ， 行 块 主要 
是 指 在 去 除 源 网 页 HTML 标签 后 的 空白 行 信息 后 ， 取 
本 行 上 下 各 2 行 , 共计 5 行为 一 个 行 块 , 用 RBT 表示 。 
在 抽取 网 页 正文 内 容 时 ， 首 先 要 建立 行 块 分 布 函 数 ， 
利用 该 函数 ， 对 各 行 块 文本 长 度 进 行 计算 ， 寻找 该 区 
域内 的 又 升 点 和 又 降 点 ， 并 选 出 长 度 值 较 大 的 区 域 ， 
则 为 网 页 的 正文 部 分 。 通 过 该 算法 能 够 较 好 地 抽取 大 
多 数 Web 信息 网 页 信息 ， 但 当 正 文 区 域内 容 很 短 时 ， 
其 受到 噪声 影响 就 更 大 ， 该 算法 有 时 就 会 出 现 误 判 情 
况 ， 真 正 表 述 主题 的 正文 内 容 就 不 会 被 抽取 。 针 对 这 
一 点 ， 主 要 是 因为 在 正文 内 容 中 可 能 存在 较 多 的 逗号 
和 名 号， 因此 本 研究 考虑 了 中 文 标点 所 带 来 的 差异 ， 
将 行 块 文本 长 度 限 定 于 文本 字符 长 度 ， 可 忽略 HTML 
标签 限制 ， 在 线性 时 间 内 通过 行 块 分 布 函数 来 提取 正 
文 信息 。m 算法 公式 如 下 : RBTPRgi = Len(c,p) 。 

RBTP 即 代 表 文 本 字符 长 度 ，RBi 代表 编号 为 i 的 
行 块 ，e 代表 该 行 块 文本 字符 数 ，p 代表 行 块 中 的 中 文 
标点 符号 数 。 

网 页 正文 抽取 流程 如 图 3 所 示 。 

3.2 基于 统计 与 网 页 结构 的 Web 新 闻 正 文 抽取 方法 

基于 统计 与 网 页 结构 的 Web 新 闻 正 文 抽取 方法 将 
充分 考虑 网 页 结构 和 HTML 标签 ，Web 新 闻 网 页 包含 


Es 
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开始 结束 


提取 网 页 正文 内 

网 页 源 容 

码 下 
+ 求 行 块 分 布 函 数 ， 
预 处 理 : 去 脚本 、 再 根据 此 函数 找 
特殊 字符 和 标签 

又 降 点 
网 页 字 ews 
符 文档 


图 3 基于 行 块 分 布 函 数 的 网 页 正文 抽取 流程 


了 大 量 的 文本 信息 ,但 有 时 噪声 区 域 的 文本 长 度 较 短 ， 
因此 基于 统计 与 网 页 结构 的 Web 新 闻 正 文 抽取 方法 不 
再 以 文本 长 度 来 进行 度量 ， 其 定义 文本 密度 为 标签 元 
素 节点 内 文本 长 度 与 该 标签 元 素 节 点 子 树 中 标签 元 素 
节点 的 个 数 的 比值 : 


该 公式 可 计算 出 标签 元 素 节 点 的 文本 密度 ， 属 于 
递归 算法 的 一 种 。 代 表 不 同 标签 元 素 节 点 的 文本 字符 
长 度 ， 则 代表 子 树 中 标签 个 数 。 整 个 递归 过 程 第 一 步 
是 对 网 页 信息 进行 预 处 理 ， 主 要 是 将 源码 中 的 标签 信 
居所 除 ， 例 如 script、style 等 ， 第 二 步 则 开始 遍历 DOM 
子 数 ， 统 计 标 签 元 素 节 点 信息 。 第 三 步 则 为 计算 文本 
密度 ， 一 般 来 说 密度 较 高 的 区 域 就 是 正文 区 域 。™ 

(1 ) 优 化 代码 。 考虑 网 页 中 整体 布局 和 标签 情况 ， 
对 网 页 源码 中 用 于 布局 和 解释 的 标签 相关 代码 予以 删 
除 ， 为 后 续 遍 历尽 可 能 提供 规律 性 较 强 的 源 代码 ; 

(2 ) 遍历 子 树 。DOM 子 树 中 含有 大 量 标签 元 素 
节点 信息 ， 需 要 通过 深度 优先 遍历 的 方式 来 采集 数据 
信息 。 该 方法 从 源码 正文 <body> 区 域 开 始 ， 采 取 递 归 
的 方式 逐一 统计 标签 元 素 节 点 的 信息 ， 从 而 能 够 得 到 
较为 全 面 的 新 闻 数 据 。 

(3 ) 计算 文本 密度 。 遍 历 子 树 后 ， 要 尽 可 能 准确 
计算 出 每 个 标签 元 素 节点 的 文本 密度 ，Web 新 闻 正 文 
区 域 则 含有 多 个 文本 密度 较 大 的 内 容 块 ， 如 果 文 本 密 
度 较 大 , 则 说 明 该 区 域 是 正文 区 域 。 但 在 实际 场景 下 ， 
Web 新 闻 网 页 中 含有 较 多 的 噪声 ,例如 大 量 外 链接 等 ， 
此 时 就 可 能 导致 子 节 点 内 容 块 密度 值 大 于 父 市 点 内 容 
块 密度 值 ， 如 果 此 时 对 正文 区 域内 容 进行 抽取 ， 则 可 
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能 导致 抽取 召回 率 过 小 。"… 因此 ， 为 了 找到 包含 Web 
新 闻 正 文 区 域 且 深度 最 大 的 子 树 跟 节 点 ， 引 入 标签 元 
素 节点 文本 密度 和 标签 元 素 节 点 EN 的 文本 密度 公式 
如 下 : 


ETDSumgy 三 > EETD:; 
iEChildsEN 


其 中 ， 是 元 素 节 点 EN 的 子 节 点 集合 ， 是 其 第 i 个 
孩子 方 点 的 扩展 文本 密度 ， 这 两 个 变量 将 其 作为 标签 
元 素 节 点 的 两 个 属性 。" 然后 根据 子 节点 集合 情况 以 
及 子 节 点 的 扩展 文本 密度 对 节点 进行 打分 : 

ScoregNn =PBXEETDENt+ (1—pb) XETDS9UWmLEN 

其 中 ， 为 权重 因子 ， 取 值 范围 为 0-0.5， 在 通常 情 
况 下 ,正文 区 域 下 多 内 容 块 节点 有 较 高 的 文本 密度 值 。 
基于 以 上 理论 说 明 ， 该 统计 与 网 页 结构 的 Web 新 闻 正 
文 抽 取 方 法 流程 如 下 ， 流 程 图 如 图 4 所 示 。 

(1) 抽取 算法 开始 ， 输 入 Web 新 闻 文 档 ; 

(2 ) 对 文档 信息 开始 进行 预 处 理 ; 

(3 ) 执行 递归 操作 ， 从 网 页 主体 <body> 标签 开 
始 ， 逐 个 对 元 素 节 点 进行 遍历 ， 青 通过 上 述 公 式 计算 
ETDSum 值 ， 即 得 到 文本 密度 ， 最 后 对 每 个 节点 进行 
打分 ， 得 到 Scroe 值 ; 

(4) 再 次 从 <body> 标签 进行 递归 遍历 ， 找 出 
Scroe 值 最 大 的 节点 ， 对 其 执行 提取 操作 ， 提 取出 的 文 
本 内 容 则 为 新 闻 正文 。 


开始 
网 页 源码 
LL 


提取 出 节点 的 文本 内 
容 ， dl 


+ 
预 处 理 : 去 脚本 、 注 释 、 
网 页 布局 等 


vy 
解析 为 DOM 树 ， 递 归 求 对 DOM 树 每 个 节 遍历 所 有 DOM 树 节 
解 每 一 个 节点 的 扩展 文 | 一 一 一 一 ”| 点 打分 ,得 到 ”| 一 一 一 +? 点 ， 找 到 Score 值 最 
本 密度 及 ETDSum 值 Score 值 素 节点 


图 4 基于 统计 与 DOM 树 的 网 页 正文 抽取 流程 


4. 实验 结果 及 分 析 

以 上 抽取 方法 都 属于 一 种 无 监督 式 的 算法 ， 下 面 
从 准确 度 和 抽取 速度 两 个 指标 来 对 比 两 种 算法 ,分 别 
从 深圳 新 闻 网 、 人 民 网 、 新 浪 新 闻 、 新 华 网 各 扑 取 
200 个 新 闻 网 页 。 在 这 些 HTML 文档 源码 中 ， 均 含有 
<title> 标签 ， 内 容 主 要 为 网 页 标题 ， 其 主要 包括 了 新 
闻 标 题 、 出 处 以 及 时 间 ， 并 显示 在 网 页 中 的 标题 栏 。 
在 获取 标题 和 时 间 时 ,本 研究 主要 是 提取 这 些 信息 后 ， 
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表 1 两 种 Web 正文 抽取 算法 抽取 结果 对 比 


基于 行 块 分 布 函数 的 抽取 方法 基于 统计 与 网 页 结构 的 抽取 方法 
新 闻 数 据 来 源 
准确 率 P 抽取 速度 准确 率 P 抽取 速度 

深圳 新 闻 网 97% 2100ms 98% 1900ms 

人 民 网 97.5% 2600ms 98.5% 2200ms 

新 浪 新 闻 96.5% 3600ms 99% 3800ms 

新 华 网 97% 2200ms 99% 2100ms 

利用 正则 表达 式 对 字符 进行 分 割 和 匹配 。 如 “2019 年。 [5] 魏 春光 . 浅 析 互 联网 大 数据 在 媒体 业务 的 支撑 应 用 一 一 以 


03 月 13 日 ”“2021/04/18” 之 类 的 格式 ， 都 可 以 采用 
正则 表达 式 进 行 匹配 和 抽取 , 表达 式 为 : “(\d{4}[-, /， 
年 Md{1, 2)[-, /， 月 ]\d{l, 2 日 ]? ) (\s*) (\ 
d{1, 2}: \d{2} (: \d{2} )?)”。 

在 提取 完 标题 数据 信息 后 ， 主 要 需要 对 比 正文 抽 
取 算法 的 优 劣 ,其 中 抽取 速度 为 多 次 测试 后 的 平均 值 ， 
准确 率 通 过 人 工 标注 获得 。 信息 抽取 结果 如 表 1 所 示 。 

根据 以 上 结果 可 以 看 出 ， 在 信息 抽取 准确 率 上 ， 
基于 统计 信息 与 网 页 结构 的 抽取 方法 要 优 于 基于 行 块 
分 布 函数 的 抽取 方法 。 而 在 信息 抽取 速度 方面 ， 基 于 
行 块 分 布 函 数 的 抽取 方法 的 时 间 复 杂 度 为 基于 字符 行 
的 线性 时 间 ， 在 网 页 较 小 时 抽取 速度 表现 较 好 ,但 当 
网 页 较 大 时 则 基于 统计 与 网 页 结构 的 抽取 方法 表现 更 
优 。 所 以 , 从 网 页 抽取 精度 和 速度 两 个 方面 综合 考量 ， 
吹 哨 系统 选择 了 基于 统计 和 网 页 结构 的 Web 新 闻 正 文 
抽取 方法 。 
结论 

综 上 所 述 ， 在 对 Web 新 闻 正 文 抽取 时 ， 基 于 统计 
信息 与 网 页 结构 的 抽取 方法 要 优 于 基于 行 块 分 布 函数 
的 抽取 方法 ， 其 准确 率 和 抽取 速度 都 更 佳 ， 非 常 适合 
当前 网 络 数据 传输 量 越 来 越 大 、 网 页 信息 越 来 越 复 杂 
的 应 用 场景 ， 最 后 通过 实验 测试 ， 对 两 个 方法 进行 了 
对 比 和 分 析 。 暑 
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